[アップデート] AWS Glue 5.0の一般提供開始 #AWSreInvent

[アップデート] AWS Glue 5.0の一般提供開始 #AWSreInvent

Clock Icon2024.12.05

AWS事業本部コンサルティング部の石川です。AWS Glue 5.0の一般提供を開始したことを発表しました。この最新バージョンでは、パフォーマンスの向上、セキュリティの強化、Amazon SageMaker Unified Studio や SageMaker Lakehouseのサポートなど、多くの新機能が追加されています。

https://aws.amazon.com/jp/about-aws/whats-new/2024/12/aws-glue-5-0/

AWS Glue 5.0とは

AWS Glue 5.0では、エンジンのアップグレードに加えて、セキュリティ機能の強化やSageMaker Lakehouseのサポートなどの新機能が追加されています。また、オープンテーブルフォーマットのサポートが更新され、データレイクにおけるパフォーマンス、コスト、ガバナンス、プライバシーに関する高度なユースケースに対応できるようになりました。

AWS Glue 5.0 の特長

エンジンのアップグレード
AWS Glue 5.0では、以下のエンジンがアップグレードされました:

  • Apache Spark 3.5.2
  • Python 3.11
  • Java 17

オープンテーブルフォーマットのサポート強化
データレイクにおける高度なユースケースに対応するため、以下のオープンテーブルフォーマットのサポートが更新されました:

  • Apache Hudi 0.15.0
  • Apache Iceberg 1.6.1
  • Delta Lake 3.2.0

これにより、パフォーマンス、コスト、ガバナンス、プライバシーに関する課題に対処できます。

セキュリティの強化
AWS Lake Formationと連携し、Sparkネイティブの細粒度アクセス制御が追加されました。これにより、Amazon S3データレイク上のデータに対して、テーブル、列、行、セルレベルの権限を適用できるようになりました。

Amazon SageMaker Lakehouseのサポート
AWS Glue 5.0は、SageMaker Lakehouseをサポートし、Amazon S3データレイクとAmazon Redshiftデータウェアハウス全体のデータを統合できるようになりました。

https://dev.classmethod.jp/articles/amazon-sagemaker-lakehouse-reinvent2024/

AWS Glue 5.0と4.0の違い

AWS Glue 5.0と4.0の主な違いは以下のとおりです。

機能 AWS Glue 5.0 AWS Glue 4.0
Sparkバージョン 3.5.2 3.3.0
Pythonバージョン 3.11 3.10
新機能 セキュリティ強化、SageMaker Lakehouse対応、Apache Hudi、Iceberg、Delta Lake対応の更新 Built-in Pandas API、Apache Hudi、Iceberg、Delta Lake対応
パフォーマンス改善 さらなるパフォーマンス向上 Spark最適化による実行時間の改善
セキュリティ強化 セキュリティ機能の強化 特になし
データフォーマット対応 Hudi 0.15.0、Iceberg 1.6.1、Delta Lake 3.2.0にアップデート Apache Hudi、Iceberg、Delta Lake

東京リージョンで利用可能

aws-glue-v5-ga-1

最後に

AWS Glue 5.0の一般提供開始は、エンジンのアップグレード、セキュリティの強化、そしてSageMaker関連の新機能の追加により、ユーザーはより効率的かつ安全にデータを扱えるようになりました。特に、Apache Spark 3.5.2、Python 3.11、Java 17へのアップグレードは、パフォーマンスの向上を実現しています。

また、オープンテーブルフォーマットのサポート強化により、Apache Hudi、Apache Iceberg、Delta Lakeの最新バージョンに対応し、データレイクにおける高度なユースケースへの対応が可能となりました。AWS Lake Formationとの連携による細粒度アクセス制御の実装は、データセキュリティを一段と強化しています。
Amazon SageMaker Unified Studio や SageMaker Lakehouseのサポートにより、Amazon S3データレイクとAmazon Redshiftデータウェアハウス全体のデータ統合が容易になりました。

Amazon EMRでは、すで利用できた Apache Spark 3.5.2 をAWS Glue 5.0で利用できるのが楽しみです。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.